智能论文笔记

Future-Dependent Value-Based Off-Policy Evaluation in POMDPs

Masatoshi Uehara , Haruka Kiyohara , Andrew Bennett , Victor Chernozhukov , Nan Jiang , Nathan Kallus , Chengchun Shi , Wen Sun

分类：机器学习 | (统计)机器学习

2022-07-26

我们研究了具有一般函数近似的部分可观察的MDP（POMDP）的外部评估（OPE）。现有的方法，例如顺序重要性采样估计器和拟合-Q评估，受POMDP中的地平线的诅咒。为了解决这个问题，我们通过引入将未来代理作为输入的未来依赖性值函数来开发一种新颖的无模型OPE方法。未来依赖性的价值函数在完全可观察的MDP中起着与经典价值函数相似的角色。我们为未来依赖性价值作为条件矩方程提供了一个新的Bellman方程，将历史记录代理用作仪器变量。我们进一步提出了一种最小值学习方法，以使用新的Bellman方程来学习未来依赖的价值函数。我们获得PAC结果，这意味着我们的OPE估计器是一致的，只要期货和历史包含有关潜在状态和Bellman完整性的足够信息。最后，我们将方法扩展到学习动力学，并在POMDP中建立我们的方法与众所周知的光谱学习方法之间的联系。

translated by 谷歌翻译

近年来，在许多工业领域引入了机器学习和AI。在诸如金融，医学和自主驾驶的领域，其中模型的推理结果可能具有严重后果，需要高的可解释性以及预测准确性。在这项研究中，我们提出了CGA2M +，其基于广义添加剂2模型（GA2M），并以两种主要方式不同。首先是单调性引入。基于分析师的知识基于某些功能对某些功能进行体重，而且预计不仅可以改善可解释性，而且还改善了概括性表现。第二个是引入高阶项：鉴于Ga2m仅考虑二阶交互，我们旨在通过引入可以捕获更高阶交互的更高阶项来平衡解释性和预测准确性。通过这种方式，我们可以通过应用学习创新来改善预测性能而不会影响可解释性。数值实验表明，该模型具有高预测性能和可解释性。此外，我们证实通过引入单调性来改善泛化性能。

translated by 谷歌翻译

为汉字设计字体是高度劳动力且耗时的。尽管最新方法成功地生成了英语字母矢量字体，尽管对自动字体的生成需求很高，但由于其复杂的形状和许多字符，中国矢量字体生成一直是一个未解决的问题。这项研究解决了仅从单个样式和内容参考的中文矢量字体自动生成的问题。我们提出了一种具有变压器和损耗功能的新型网络体系结构，以捕获结构特征而无需渲染。尽管数据集范围仍然仅限于Sans-Serif家族，但我们首次使用建议的方法成功地生成了中国矢量字体。

translated by 谷歌翻译